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摘 要 ; [目的 /意义 ] 基 于 用 户 个 人 的 研究 兴趣 和 需求 方向 ,探索 实现 数字 人 文 信息 精准 推送 的 实现 路 径 , 以 优化 我 国 数 


字 人 文平 台 的 功能 。 


[方法 /过 程 ] 以 上 海 图 书馆 的 数字 人 文平 台 为 例 ,探索 知识 图 谱 、 用 户 和 画像 以 及 热点 推送 三 


种 服务 方式 在 人 文学 科 领 域 的 应 用 ,以 提升 现代 图 书馆 服务 质量 ,为 用 户 提 供 更 加 高 效 优 质 的 服务 。[ 结果 / 结 
论 ] 研 究 显示 ,将 高 效 的 人 工 智 能 推荐 算法 与 数字 人 文 服务 相 结 合 ,能 够 为 用 户 提供 各 种 精准 优质 的 推介 服务 ,将 


高 价值 信息 精准 地 推送 到 用 户 面前 。 
奚 名 词 : 数字 人 文 ”知识 图 谱 图 书馆 服务 
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CD 随 着 数据 科学 .大 数据 地理 信 息 系 统 文本 挖 气 、 
任 误 可 视 化 等 现代 信息 技术 手段 的 飞速 发 展 ,数字 人 
CDigital Humanities, DH ) 以 其 跨 学 科 、 跨 领域 的 特 
点 5 深刻 地 影响 着 历史 地 理 .文学 .计算 机 科学 等 学 科 ， 
成 新 传 统 人 文 研究 的 有 力 补充 和 强劲 动力 。 特 别 是 在 
大 类 据 环境 下 ,世界 各 国 的 数字 人 文 会 议 "-” .数字 人 
文 饶 究 项 目 ”“ 数字 人 文中 心中 均 开展 得 如 火 如 茜 。 
-数字 人 文 浪潮 推动 数字 人 文平 台 在 国内 外 的 广泛 
出 金 。 数 字 人 文平 台 是 指 为 数字 人 文 研究 学 者 提供 


数据 缺乏 足够 的 挖 气 、 提 取 和 过 小 ,导致 数字 人 文 服务 
平台 提供 的 服务 价值 密度 低 ,用 户 无 法 及 时 高 效 的 获 
取 有 价值 的 信息 ,造成 资源 浪费 等 问题 。 为 了 优化 数 
字 人 文平 台 的 服务 ,本 文 尝试 以 上 海 图 书馆 的 数字 人 
文平 台 实 践 为 例 , 探 讨 综合 运用 知识 图 谱 推荐 ”、 用 户 
画像 推送 、 基 于 热度 推荐 等 方式 实现 数字 人 文 个 性 化 
服务 的 可 能 性 与 潜力 。 


2 数字 人 文平 台 的 研究 与 发 展现 状 
国内 外 图 书馆 界 早已 深入 研究 数字 人 文 。 南 京 大 


系列 数字 人 文学 科 领 域 相关 的 资源 数据、 工具 和 服务 
的 网 络 平台 。 这 类 平台 通过 收集 和 组 织 相关 信息 , 实 
现 对 数字 人 文 信息 资源 的 统一 访问 ,成 为 分 析 和 传播 
数字 人 文 信息 的 桥梁 ,满足 人 文学 者 研究 需求 的 多 样 
性 ,为 使 用 技术 推动 跨 学 科 的 人 文 研究 提供 支持 。 
目前 ,国外 数字 人 文平 台 有 “美国 历史 协会 (AHA)"” 数 
字 人 文平 台 、“ACO * HUM - 人 文科 学 中 的 高 级 计算 ” 
数字 人 文平 台 等 ;国内 的 数字 人 文平 台 较 少 ,如 台湾 大 
学 “数位 人 文 研究 中 心 ”和 武汉 大 学 “数字 人 文 研究 中 
心 "已 设立 相应 的 数字 人 文平 台 。 

当前 数字 人 文平 台大 多 只 是 使 用 关联 数据 技术 对 
文献 在 元 数据 层面 的 知识 进行 组 织 和 发 布 ,对 海量 的 


学 信息 管理 学 院 的 何 盼 盼 根据 国内 相关 文献 的 发 表 量 
进行 统计 后 “指出 国内 研究 可 分 为 3 个 阶段 :前 期 萌 
芽 阶 段 (2011 -2012 年 ) ,中 文 相关 文献 的 出 现 比 国外 
晚 了 近 十 年 ,第 一 篇 为 “第 三 届 中 美 数字 时 代 图 书馆 学 
情报 学 教育 国际 研讨 会 "上 的 一 份 发 言 稿 ” ,该 文献 提 
出 合格 的 “ 舰 入 式 馆 员 ” 应 该 具备 数字 人 文 .统计 和 计 
算 方法 、 自 然 语 言 处 理 \ 语 料 库 语言 学 等 多 方面 的 知 
识 , 并 据 此 提供 知识 咨询 服务 ;起 步 阶段 (2013 - 2015 
年 ) ,研究 文献 缓慢 增长 ,年 文献 量 保持 在 5 - 15 篇 ;高 
速 发 展 阶段 (2016 年 以 后 ) ,2016 年 北京 大 学 图 书馆 局 
动 数字 人 文系 列 活动 ,包括 举办 首届 北京 大 学 “数字 人 
文 " 论 坛 .邀请 国内 外 数字 人 文学 者 进行 专场 讲座 等 ， 
故 2016 年 学 术 论 文 数 量 呈 "井喷 式 " 增长。 就 近 几 年 
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的 发 展 趋势 而 言 ,国内 数字 人 文 领域 的 相关 研究 已 处 
于 高 速 发 展 阶段 。 

数字 人 文平 台 是 数字 人 文 技术 的 应 用 ,本 质 上 是 
“基于 数字 人 文 技术 构建 的 一 个 聚合 数据 资源 .数据 工 
具 数据 服务 的 知识 共享 平台 内容 开放 平台 "5 。 但 
在 这 方面 的 文献 研究 仍然 较 少 。 截 至 2021 年 10 月 17 
日 ,笔者 以 “数字 人 文平 台 " 为 关键 词 ,对 “中 国 知 网 ” 
文献 数据 库 中 的 全 部 中 文 文献 进行 篇 名 检索 ,检索 结 
果 仅 有 36 条 。 这 些 文献 谈 到 了 数字 人 文平 台 可 以 实 
现 的 综合 性 服务 功能 ,包括 文本 挖掘、 可 视 化 分 析 \ 场 
景 模拟 与 复原 、 语 料 库 利 用 等 ,但 较 少 从 用 户 视角 出 
发 ,对 个 性 化 服务 的 实现 方法 和 功能 设计 进行 研究 。 

图 书馆 的 视角 下 ,个 性 化 服务 就 是 以 用 户 为 中 心 ， 
在 研究 用 户 行为 .兴趣 、 爱 好 ,专业 和 习惯 的 基础 上 ， 
根据 用 户 的 个 性 化 需求 而 开展 的 信息 服务 " 。 对 有 
其 休 研究 需求 的 用 户 而 言 , 较 之 全 面 而 扁平 化 的 信息 
腊 狐 ,更 渴求 精准 定位 的 个 性 化 服务 。 具 体 来 说 ,就 是 
根 饮 知识 图 谱 共 现 、 用 户 画 像 等 技术 ,依据 各 种 渠道 对 
数学 人 文 信息 进行 收集 ,整理 和 分 类 ,向 用 户 提供 和 扒 
荐 相关 的 数字 人 文 信息 ,从 而 为 用 户 提供 精准 的 信息 
脐 乔 。 从 整体 上 说 ,数字 人 文 个 性 化 服务 是 将 传统 的 
被 动 服务 模式 转换 为 充分 利用 数字 人 文平 台 的 各 种 次 


合用 户 个 性 化 兴趣 的 数字 人 文 信息 。 
3.1 共 现 功能 

“ 共 现 ”是 指 文献 的 特征 项 描述 的 信息 共同 出 现 
的 现象 ,这 里 的 特征 项 包括 文献 的 外 部 特征 如 题名 、 作 
者 \ 机 构 等 ,以 及 内 部 特征 如 人 物 关系 、 机 构 沿 草 、 相 关 
事件 等 。 检 索 结果 的 共 现 需求 是 指 上 海 图 书馆 数字 人 
文平 台 根 据 用 户 的 检索 行为 ,除了 以 检索 词 匹配 相关 
文献 的 外 部 特征 外 ,同时 根据 文献 的 内 部 特征 向 用 户 
推送 与 之 有 关联 的 文献 知识 ,帮助 平台 揭示 信息 的 
内 容 关 联 和 特征 项 所 隐 含 的 寓意 。 
3.2 推送 功能 

推送 功能 是 指 平 台 主 动向 用 户 进行 信息 、 文 献 或 是 
资源 的 推送 。 个 性 化 的 推送 则 是 根据 的 用 户 的 兴趣 点 ,将 
不 同 的 内 容 推送 给 不 同 的 客户 。 个 性 化 推送 功能 的 后 台 
机 制 是 采集 用 户 在 平台 使 用 过 程 中 检索 .浏览 和 留言 的 数 
据 ,进行 分 析 处 理 形 成 用 户 画像 数据 ,在 将 来 用 户 使 用 平 
台 的 过 程 中 主动 向 用 户 推 送 其 兴趣 相关 的 内 容 。 
3.3 推荐 功能 
推荐 功能 是 指向 所 有 用 户 统一 进行 热点 资源 的 推 
荐 。 上 海 图 书馆 数字 人 文平 台 需 要 收集 用 户 群 体 近期 
检索 和 浏览 的 数据 ,通过 分 析 用 户 与 平台 交互 数据 得 
到 时 事 热 点 内 容 , 在 平台 推荐 栏 展 示 给 所 有 用 户 。 推 


沽 ,开展 以 满足 用 户 个 性 化 数字 人 文 需求 的 全 方位 主 
动 贱 务 。 虽 然 ,这 种 平台 构建 思维 已 经 在 各 种 商用 平 


= 


存 算 法 需要 采用 更 加 聚合 的 热度 算法 ,解决 热度 偶 癌 


激 被 大 规模 使 用 ,但 在 数字 人 文平 台中 很 少 被 应 用 
到 e 根 据 笔者 调研 的 台湾 大 学 “数位 人 文学 术 研 究 平 
台 2 和 武汉 大 学 “数字 人 文 研究 中 心平 台 " 来 看 ,其 平台 
让 要 部 是 通过 用 户 的 查询 来 进行 数据 的 反馈 ,并 没有 采 
集 和 分 析 用 户 数据 ,并 据 此 来 进行 个 性 化 服务 。 因 此 将 
个 性 化 服务 功能 加 入 到 数字 人 文平 台中 ,可 以 为 使 用 者 
提供 了 更 加 富有 针对 性 的 服务 。 数 字 人 文平 台 个 性 化 
服务 的 功能 设计 ,是 一 个 值得 深入 探索 的 方向 。 
3 数字 人 文平 台 个 性 化 服务 的 功能 设计 
为 了 向 读者 提供 优质 的 个 性 化 服务 ,上 海 图 书馆 
的 数字 人 文平 台 在 规划 初期 就 从 三 个 方面 进行 功能 设 
计 :分 别 是 以 知识 图 谱 的 方式 来 进行 数据 建构 .采集 用 
户 行为 数据 进行 用 户 画像 ,以 及 基于 近期 浏览 数据 进 
行 热度 推荐 。 此 实践 中 ,个 性 化 服务 具体 体现 在 两 个 
方面 :@ 提 高 数字 人 文平 台 信息 服务 对 用 户 需求 的 匹 
配 度 , 尽 可 能 过 滤 信息 杂音 ,解决 热度 偏向 问题 ;@ 提 


问题 ;平台 需要 提供 热度 排序 表 ,把 热点 内 容 更 全 面具 
体 的 推荐 给 平台 用 户 ” 。 


4 数字 人 文平 台 个 性 化 服务 的 功能 实现 


上 海 图 书馆 数字 人 文平 台 的 个 性 化 功能 ,可 以 运 
用 不 同 的 算法 予以 实现 。 本 节 主 要 对 基于 知识 图 谱 藤 
入 与 多 神经 网 络 的 序列 推荐 算法 “用户 画 像 提 取 
算法 和 词汇 热度 算法 进行 介绍 。 
4.1 基于 知识 图 谱 实 现 共 现 功 能 

知识 图 谱 中 存放 大 量 数字 人 文 信息 ,结合 知识 图 
谱 得 到 的 共 现 信息 ,能 向 上 海 图 书馆 数字 人 文平 台 用 
户 呈 现 更 具体 更 全 面 的 推荐 。 
4.1.1 知识 图 谱 的 表达 形式 

知识 图 谱 ( Knowledge Graph) ,是 一 种 以 图 的 形式 
存储 人 类 知识 的 大 规模 语义 网 络 。 近 年 来 ,知识 图 谱 
在 自然 语言 处 理 问答 系统 、 推 荐 系统 等 诸多 领域 取得 
了 广泛 且 成 功 的 应 用 。 知 识 图 谱 中 的 节点 表示 实体 ， 
边 表示 关系 。 在 知识 图 谱 中 ,事实 以 三 元 组 的 形式 进 


Sp 


高 数字 人 文平 台 信息 服务 对 用 户 需 求 的 预测 精准 度 ， 
从 被 动 服务 转向 主动 而 定位 精准 的 预测 ,及 时 推送 迎 


行 表 示 。 三 元 组 一 般 记 为 < 头 实体 ,关系 , 尾 实 体 > 。 
图 1 为 典籍 知识 图 谱 实例 : 
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以 上 海 国 书 傍 为 例 [J], 国 书 情 依 轩 史 全 和 扶 利 


Borin 


酒 症 光 一 7 年 (1846) 刻本 


二 作 1 所 示 和 典籍 知识 图 谱 由 来 自 全 球 734 家 图 书 
馆 \ 科 研 院 所 等 所 藏 的 250 万 余 中 国 历代 存世 典籍 信 
纺 成 ,其 中 包含 古籍 实体 649 549 种 ( Work 实例 ) 、 
典籍 责任 者 221 783 位 (Person 实例 ) .古籍 版 本 
1 498 383 个 (Version 实例 ) .地 名 节点 13 960 个 (Place 
实例 ) ,这 四 类 节点 及 其 之 间 的 关系 构成 一 个 庞大 的 典 
籍 知识 图 谱 , 节 点 .属性 及 边 等 形成 了 一 个 立体 多 维 、 
多 用 途 的 古籍 知识 关联 网 络 ,实现 了 对 全 球 主要 中 国 
历 答 存世 典籍 书目 信息 较 全面 的 描述 ,为 研究 者 挖 所 
海量 古籍 书目 数据 背后 隐藏 的 知识 提供 了 一 站 式 平 
台 ,大 大 增强 了 古籍 知识 服务 功能 "9 。 
4.1.2 利用 知识 图 谱 抽 取 游 走 序 列 

node2vec'" 的 思想 是 生成 随机 游 走 , 对 随机 游 走 
采样 得 到 (节点 , 上下文) 的 组 合 ,然后 用 处 理 词 向 量 
的 方法 对 这 样 的 组 合 建 模 得 到 网 络 节点 的 表示 。 

本 文 使 用 现 有 的 知识 图 谱 , 然 后 使 用 node2vec 算 
法 思想 构建 随机 游 走 序列 。 以 上 海 图 书馆 数字 人 文平 
台 为 例 , 基 于 数字 人 文 资源 ,结合 事件 .人 、 地 名 、 机 构 ， 
构建 的 知识 图 谱 见 图 2。 

使 用 node2vec 中 的 随机 游 走 方式 采样 随机 游 走路 
径 , 如 (新 文化 运动 ,胡适 ,北京 大 学 ) 等 ,然后 从 其 中 


Xx 


a 
提供 古 每 名 称 或 机 任 者 检索 
= (250 万 余 条 典 夭 信息 ， 包 
:9 全 版 本 、 政 藏 地 、 收 藏 效 、 
[ 合作 用 户 提 供 下 级 分 析 功能 
玖 本 


1 典籍 知识 图 谱 实 例 


7 
>,(v,%) eh ~» 
2 公式 (1) 


P(c,=%| cj =2) = 
0 ,otherwise 

其 中 ,7 是 未 归 一 化 概率 ,Zz 表示 其 中 的 归 一 化 常 

数 。c, 表示 随机 游 走 中 的 第 i 个 节点 ,v 和 x 表示 知识 

图 谱 中 的 节点 ,E 表示 知识 图 谱 。 对 于 常见 的 随机 游 

走 ,m 和 实体 边 权重 之 间 的 关系 为 :T= os (1,x) . 

oo 为 节点 和 节点 x 之 间 的 权重 。 系 数 a (t,x) 
计算 方式 如 下 所 示 : 


上 电动 
二 


Qa (t,xX) ~- 1,d.,. =1 公式 (2) 


A 
q 
其 中 ,t 表示 上 一 个 节点 ,x 表示 随机 游 走 中 下 一 
个 可 能 的 节点 ,通过 p 和 9 的 值 来 控制 深度 和 广度 游 
走 ,d_ix 表示 节点 t 和 ww 之 间 的 最 短 距 离 。 本 文 使 用 
node2vec 的 深度 游 走 策略 获取 得 项 目 序列 作为 下 一 步 
item2vec 的 输入 ,更 好 地 捕获 项 目 之 间 的 相似 性 。 通 过 
知识 图 谱 的 序列 抽取 得 到 序列 集合 H, = {1 ,二 ，…， 


工 ,其 中 1; 二 {a )X2 ，”)Xn | 表示 生成 的 一 条 随机 游 走 


提取 出 数字 人 文 实体 序列 。node2vec 的 广度 遍历 和 深 
度 遍 历 能 很 好 地 抽取 实体 间 的 同 质 性 和 同 构 性 。 随 机 
游 走 的 概率 为 : 


序列 。 
4.1.3 抽取 用 户 行为 的 历史 交互 序列 
假设 令 U= |u,w,,…,u,| 表示 组 用 户 ， 而 了 = 
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1 ,… ,i, | 表示 一 组 项 目 。 一 个 用 户 的 历史 交互 序 


列 过 示 为 B(w) = | (2, 0), (让 ) (Cisco 
th ) 1 ,其 中 ( 癌 , 妇 ) 表 示 用 户 在 时间 操作 了 项 目 
i oS 绑 取 的 B(u) 即 为 所 需 的 历史 交互 序列 。 


1 


将 从 知识 图 谱 抽 取 的 序列 与 现 有 的 用 户 交 互 序列 
相 结 合 ,作为 item2vec 的 输入 ,最终 得 到 项 目的 嵌入 向 
量 e < 知识 图 谱 序列 能 够 弥补 采用 项 目 序列 府 人 较 少 考 
虑 项 目 内容 信 息 等 缺点 。 神 经 项 目 艇 人 模型 类 比 于 词 
向 量 模型 ,用 户 交 互 的 项 目 随 着 时 间 自 然 地 形成 顺序 
序列 ,知识 图 谱 得 到 项 目 序列 ,将 两 者 结合 类 比 于 自然 
语句 。 同 一 作者 、 同 一 出 版 机 构 和 拥有 相同 上 下 文 信 
息 的 项 目 在 租 入 空间 上 中 离 得 很 近 。 具 体 来 说 ,给 定 
用 户 交 互 序 集合 五 = | S51,S,,…,Sy| 以 及 知识 图 谱 得 
到 的 序列 结合 及 = 17,4,… ,Jy1 ,item2vec 技术 的 
Skip-gram 模型 则 在 最 大 化 以 下 目标 : 


arg max target = 二 Di Dp logp (xi lx, ) 
公式 (3) 
其 中 ,K 是 序列 S;, 和 7; 的 长 度 ,x; 表示 序列 中 的 项 
目 ,p(xi1x,) 定 义 为 softmax 函数 : 


exp( 207 2 ) 


p(x | x,)= 公式 (4) 


> exp( wi DL, ) 
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其 中 ,其 中 w; 和 vw; 为 x; 的 目标 和 上 下 文 表示 的 潜 
在 向 量 。 对 于 每 个 用 户 u, 可 以 生成 具有 通信 项 的 交 
互 序列 ,如 公式 (5) 所 示 : 

R,= | 

其 中 ,vw 表示 项 目 x 的 d 维 潜在 向 量 。 
上 述 算法 过 程 中 ,item2vec 对 项 目 进行 聚 类 ,捕获 
项 目的 相似 性 ,并 生成 统一 的 项 目 表示 空间 ,其 中 般 入 
产生 的 向 量 可 以 解释 项 目的 相似 性 和 顺序 关系 , 聚 类 
在 一 起 的 项 目 具 有 强 关联 性 。 


公式 (5) 


node2vec 和 item2vec 算法 根据 用 户 的 检索 行为 ， 
通过 知识 图 谱 的 随机 游 走 和 骨 入 项 的 交互 序列 ,可 以 
有 效 地 在 杂乱 无 章 的 图 数据 库 中 进行 节点 筛选 。 在 展 
开 同 样 维度 的 节点 信息 时 ,能 够 获得 最 能 贴近 用 户 的 
节点 内 容 。 上 海 图 书馆 数字 人 文平 台 使 用 node2vec 和 
item2vec 算法 后 ,不 但 实现 了 平台 的 共 现 功能 ,同时 能 
够 将 共 现 信息 更 加 精准 化 地 推送 给 用 户 。 


用 户 画 像 是 一 种 刻画 用 户 信 息 模 型 的 技术 ,在 控 
掘 用 户 真 实数 据 的 基础 上 ,提炼 出 用 户 兴趣 点 ,呈现 虚 
拟 的 用 户 信息 全 貌 ,以 此 为 基础 为 用 户 提供 精准 个 性 
化 推送 服务 。 本 文通 过 所 提出 的 序列 建 模 框架 建 模 用 
户 的 用 户 图 像 。 


刘 沛 中 , 戴 晴 宜 . 数字 人 文平 台 
-60. 


个 性 化 服务 的 功能 设计 研究 


Wi nina 合作 地 Tl 


以 上 海 图 书馆 为 例 [J]. 图 书 情 


4.2.1 用 户 画 像 算法 

本 文 将 卷 积 神经 网 络 ( Convolutional Neural Net- 
work ,CNN ) 作 用 于 用 户 的 兴趣 点 ,充分 考虑 用 户 的 历 
息 来 学 习 用 户 的 兴趣 点 ,来 形成 


史 交 互 序列 上 下 文 信 
用 户 画 像 。 

兴趣 的 学 习 首 先 需 要 根据 用 户 交 互 序列 时 间 戳 的 
信息 划分 用 户 的 交互 序列 ,然后 使 用 CNN 学 习 用 户 的 
兴趣 点 。 本 文 将 用 户 的 序列 分 为 长 中 短 3 个 时 期 ,动态 
地 学 习 用 户 的 偏好 , 卷 积 偏好 建 模 的 模型 如 图 3 所 示 : 


pr 


输出 层 
b=4 
隐藏 层 
b=2 
| | 隐藏 层 
TI 
By lt 给 入 层 
S 3 ” 卷 积 偏好 建 模 模 型 


< 寺 本 文 使 用 一 维 卷 积 神经 网 络 (CNN) 学 习 用 户 的 兴 
3 人 CNN 有 良好 的 兼顾 上 下 


de 
铝 。 本 文 将 膨胀 卷 积 应 用 到 兴趣 点 偏好 学 习 中 ,对 于 
维 序 列 输入 Xe RV 和 滤波 器 f:10,…,k -1| eR, 其 中 ， 
BA 
= F(s) =(X*d)(s) = Efi): 
公式 (6) 
其 中 ,d 表示 项 目 向 量 维度 ,k 是 卷 积 核 大 小 ,s -4d 
.i 表示 卷 积 操作 过 去 的 方向 。f 表示 卷 积 操作 中 的 滤 
波 器 ,s 表示 序列 中 的 元 素 。 图 3 中 w 表示 项 目 向 量 ， 
P,,, 表 示 第 T+1 次 输出 结果 ,6 表示 膨胀 卷 积 的 膨胀 
因子 。 因 此 ,膨胀 卷 积 在 每 2 个 相 邻 的 滤波 器 之 间 引 
入 一 个 固定 的 阶 跃 。 当 5 = 1 时 ,膨胀 卷 积 变 为 规则 卷 
积 。 使 用 大 的 膨胀 因子 可 以 使 顶层 的 输出 代表 更 大 范 
围 的 输入 ,从 而 有 效 地 扩展 了 CNN 的 接收 范围 。 本 文 


的 残 差 块 包含 一 个 分 支 , 该 分 支 通 过 F 的 一 系列 变形 ， 
其 输出 被 添加 到 块 的 输入 中 : 
o=Activation(X+F(X)) 公式 (7) 


通过 CNN 的 学 习 , 得 到 了 用 户 u 的 兴趣 点 序列 P， 
= | P,P;,…,P,| ,该 序列 就 是 用 户 u 的 个 人 画像 数 
据 , 能 够 很 好 地 刻画 出 此 用 户 的 喜好 。 


4.2.2 CNN 算法 的 优势 

CNN 算法 通过 多 次 的 卷 积 计算 ,从 海量 用 户 数据 
中 提取 出 特征 值 。 在 上 海 图 书馆 数字 人 文平 台中 , 先 
收集 用 户 的 检索 行为 和 浏览 内 容 ,再 通过 CNN 算法 进 
行 特 征 值 提 取 , 而 提取 出 的 特征 值 则 代表 了 用 户 的 兴 
趣 点 序列 ,也 就 是 用 户 的 个 人 画像 数据 。 然 后 以 这 些 
个 人 画像 数据 为 基础 ,在 该 用 户 再 次 进行 检索 的 时 候 ， 
将 最 为 贴近 此 用 户 的 检索 结果 优先 呈现 给 用 户 ,从 而 
实现 了 用 户 画 像 的 推送 功能 。 在 使 用 了 CNN 算法 之 
后 ,上 海 图 书馆 数字 人 文平 台 可 以 更 好 地 依据 不 同 用 
户 的 兴趣 点 将 对 应 的 检索 结果 优先 推送 给 用 户 , 极 大 
地 改善 了 用 户 的 使 用 体验 。 
4.3 基于 热度 算法 实现 推荐 功能 

将 热点 内 容 推 荐 给 用 户 是 时 下 的 潮流 所 向 ,用 户 
也 希望 开拓 视野 ,获取 热门 .值得 关心 的 数字 人 文 内 
容 。 上 海 图 书馆 数字 人 文平 台 采 用 了 热度 算法 ,采集 
近期 用 户 与 平台 的 各 项 交互 数据 ,实现 了 为 用 户 提供 
热点 资源 推荐 的 功能 。 
4.3.1 基于 时 间 线 的 人 文 词汇 热度 计算 模型 

定义 :每 个 词汇 w; 统计 4 个 数据 ,在 时 间 段 d。 内 ， 
所 有 包含 w 的 上 海 图 书馆 数字 人 文平 台 总 搜索 数 a， 
没有 包含 w 的 总 搜索 数 b。 在 d 之 外 ,所 有 包含 w， 
的 搜索 数 c, 没 有 包含 w; 的 搜索 数 d。 如 表 1 所 示 : 

表 1 搜索 统计 
检索 词 


Wi wi 


时 间 段 


diedo 训 b 


di¢ do c d 


词汇 热度 的 计算 ,如 下 述 公 式 (8) 所 示 : 
(ad -bc)’ 
(a+tb)(atc)(b+c)(b+d) 


4.3.2 基于 多 用 户 集群 的 词汇 热度 算法 

在 上 海 图 书馆 数字 人 文平 台中 ,使 用 层次 聚 类 算 
法 将 用 户 按照 兴趣 点 聚 类 为 多 个 集群 。 层 次 聚 类 算法 
是 根据 每 两 个 对 象 之 间 的 距离 ,将 距离 最 近 的 对 象 两 
两 合并 ,合并 后 产生 的 新 对 象 再 进行 两 两 合并 ,以 此 类 
推 ,直到 所 有 对 象 合 为 一 公平 的 原因 ,应 对 每 
个 集群 进行 词汇 热度 的 运算 ;否则 ,用 户 数 多 的 集群 在 
整个 用 户 空间 中 占 比 大 ,对 热门 词汇 的 控制 强 。 

首先 并 行 在 每 个 集群 p, 中 统计 时 间 段 内 的 用 
户 搜 索 各 词汇 的 搜索 次 数 , 取 搜 索 次 数 前 十 的 词汇 作 
为 热门 词汇 ,以 第 一 个 集群 p, 为 例 ,热门 词汇 集 记 为 
7 。 然 后 ,统计 每 个 热门 词 w e 在 集群 p, 中 时 间 段 


公式 (8) 
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to 内 的 所 有 包含 w 的 总 搜索 数 w ,没有 包含 w 的 总 搜 
索 数 5。 在 之 外 ,所 有 包含 w 的 搜索 数 cr ,没有 包 
含 wi 的 搜索 数 di ,计算 该 热门 词 w 的 词汇 热度 。 接 
着 ,将 各 集群 的 热门 词汇 的 热度 统计 成 一 张 热门 词汇 
总 表 , 相 同 的 热门 词汇 热度 值 累加 。 最 后 ,根据 词汇 热 
度 进行 排名 ,形成 Top-N 热门 搜索 列表 。 


上 海 图 书馆 数字 人 文平 台 上 使 用 的 词汇 热度 算法 
综合 使 用 了 时 间 线 和 用 户 集群 两 个 分 支 热度 算法 。 时 
间 线 热度 算法 保证 了 词汇 的 热度 必须 随 着 时 间 流 逝 而 
衰减 ,从 而 防止 某 些 历史 热度 值 很 高 的 词汇 长 期 占据 
了 推荐 位 置 。 而 用 户 集群 热度 算法 , 则 是 在 词汇 热度 
计算 之 前 先 根据 用 户 的 兴趣 点 进行 用 户 集群 分 类 , 然 
局 在 各 个 集群 中 分 别 计算 词汇 热度 再 相 加 形成 最 后 的 
热 姜 值 。 集 群 热度 算法 可 以 防止 大 集群 对 热门 词汇 控 
制 渤 强 ,通过 集群 热度 算法 ,得 出 的 热度 词汇 会 更 加 丰 
党 ,不 会 集中 在 某 些 特定 领域 。 上 海 图 书馆 数字 人 文 
条 和 台 使 用 了 上 述 两 个 热度 算法 后 ,呈现 出 丰富 而 多 样 
热情 推荐 内 容 , 达 到 了 原始 设计 的 预期 要 求 。 


S| 


上 海 图 书馆 在 2020 年 启动 了 “历史 人 文大 数据 


Ba Demo 
= 新 文化 运动 


所 有 入 选 新 文化 运动 


台 项 目 ” ,整合 了 上 海 图 书馆 的 各 类 数字 资源 ,形成 了 
目前 的 上 海 图 书馆 的 数字 人 文平 台 。 该 平台 将 原 有 的 
数字 资源 进行 知识 重组 ,能够 支持 数据 驱动 的 定量 分 
析 可 视 化 展示 、 文 本 分 析 、 社 会 网 络 关系 分 析 、 地 理 空 
间 分 析 等 新 的 数字 人 文 个 性 化 服务 。 

个 性 化 服务 功能 是 上 海 图 书馆 数字 人 文平 台 的 重 
要 模块 。 使 用 知识 图 谱 技术 实现 共 现 功能 ,使 平台 能 
够 全 面 完整 的 呈现 用 户 所 查询 信息 的 整体 框架 ;使 用 
日 户 画像 技术 帮助 数字 人 文平 台 掌 握 用 户 的 兴趣 动 
态 ,给 予 用 户 最 科学 专业 的 个 性 化 定制 推送 ;使 用 热点 
算法 技术 使 平台 对 整体 用 户 数 据 的 把 控 分 析 , 向 用 户 
提供 热点 资源 的 推荐 。 本 节 将 介绍 上 海 图 书馆 数字 人 
文平 台 在 个 性 化 服务 功能 在 前 台 的 页 面 呈现 效果 。 


| 


在 上 海 图 书馆 数字 人 文平 台中 ,知识 图 谱 共 现 的 
实现 主要 是 用 户 检索 关键 字 后 的 页 面 呈 现 ,如 图 4 所 
示 。 以 “新 文化 运动 ”检索 关键 字 为 例 , 上 海 图 书馆 数 
字 人 文平 台 页 面 的 左 半边 是 基于 外 部 特征 进行 文献 检 
索 的 结果 ;依次 呈现 在 右 半 边 是 根据 检索 关键 字 ”新 文 
化 运动 " 和 知识 图 谱 游 走 序列 生成 的 共 现 信息 ,其 中 包 
括 人 物 、 机 构 、 相 关 事 件 和 相关 文献 。 


找到 9 个 结果 | 用 时 0.177 秒 
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在 上 海 图 书馆 数字 人 文平 台中 ,结合 用 户 画 像 ,不 
ee 现 不 同 的 检索 结果 ,如 图 5 
所 示 ,左右 两 侧 是 不 同 的 用 户 采 用 同样 的 关键 字 进 行 
检索 ,但 是 检索 结果 的 呈现 是 不 同 的 。 左 侧 是 新 用 户 
的 检索 结果 ,而 右 侧 是 老 用 户 ,平台 根据 老 用 户 的 检索 
历史 阅读 内 容 和 文献 查阅 方式 形成 的 与 平台 的 交互 


的 兴趣 点 ,最 后 导致 检索 结果 的 内 容 有 所 不 同 。 
通过 对 图 5 右 侧 老 用 户 的 后 台 用 户 画 像 数据 进行 
分 析 , 发 现 右 侧 老 用 户 先 前 经 常 检索 的 关键 词 为 “五 
四 ”和 “国民 ” ,同时 该 用 户 经 常 阅读 与 “五 四 运动 ” 相 
关 的 文献 内 容 。 因 此 该 用 户 形 成 了 特定 的 用 户 画 像 ， 
在 输入 同样 的 检索 词 之 后 并 产生 大 量 检索 结果 的 时 
候 , 系 统 将 与 该 用 户 画 像 相 匹 配 的 数据 优先 推送 给 该 


序列 ,让 平台 不 断 地 更 新 该 用 户 的 用 户 画 像 , 即 更 新 其 


新 文化 运动 


所 有 节选 新 文化 运动 


找到 | 9 个 结果 | 用 时 0.177 秒 


陈独秀 。 《新 青年 》 1920 年 [第 7 卷 第 5 期 ，10-15 页 ] 


令吉 看 


顾 晴 《新 秦 先 锋 》 ”1932 年 [第 1 卷 第 1 期 ，77-81 页 ] 


仿 查 看 


《华中 文 汇 》 资 料 室 《华中 文人》 ”1949 年 [第 1 卷 第 3-4 期 ，38 页 ] 


令 查看 


王 觉 源 《现实 评论 》 ”1942 年 [ 第 1 卷 第 5 期 ，10-11 页 ] 
人 查看 


周 玲 菠 《美育 》 1920 年 [第 3 期 ，1-16 页 ] 


仿 查看 


国学 研究 : 
雪 堂 。” 《 直 隶 省 立 第 十 一 中 学 校 汇 刊 》 1924 年 [第 1 期 ，43-46 页 ] 
多 查看 


旭光 《建国 (上 海 1946.1)》 1946 年 [创刊 号 ，23-27 页 ] 
令吉 看 


罗汉 《中 建 北 平版 》 1948 年 [第 1 卷 第 8 期 ，16-17 页 ] 


在 上 海 图 书馆 数字 人 文平 台中 ,热门 搜索 在 页 面 

上 的 呈现 为 热度 推荐 榜 单 ,如 图 6 所 示 ,根据 热度 算法 

计算 得 到 的 热度 值 将 相关 文献 进行 排序 并 展示 。 用 户 

能 够 查看 热度 榜 了 解 全 体 用 户 的 兴趣 所 在 ,根据 热度 
TT 自己 感 兴趣 的 文献 。 


主办 单位 : 民众 运动 月 刊 社 编辑 [并 发 行 ] 


主办 单位 : 小 山 庆 治 [发 行人 ] 
出 版 地 : 满洲 
令吉 看 


《新 五 四 》 


主办 单位 : 新 五 四 社 出 版 
出 版 地 : 南京 
令 二 看 


用 户 。 


新 文化 运动 


所 有 季 选 新 文化 运动 


找到 9 个 结果 | 用 时 0.177 秒 


王 觉 源 《现实 评论 ) ”1942 年 [第 1 卷 第 5 期 ，10-11 页 ] 
令 查看 


通 漫话 ; 漫 叫 艺术 运动， 从 五 四 而 救亡 运动 … 
张 文 元 。 《联合 画报 》 1946 年 [第 169-170 期 ，18 页 ] 
他 查看 


的 再 估价 :为 “五 四 ”二 十 八 周年 纪念 作 
刘 亦 宇 ” 《民主 与 统一 (上 海 )》 1947 年 [第 33 期 ，2-3 页 ] 
念 查看 


的 缺点 及 其 补救 方法 
汪 德 裕 。 《新 文化 》 ”1934 年 [第 1 卷 第 7-8 期 ，16-22 页 ] 
多 查看 


胡 送 《新 月 ) 1929 年 [第 2 卷 第 6-7 期 ，11-25 页 ] 
令吉 看 


王 正之 。” 《建国 月 刊 (上 海 )》 ”1930 年 [第 2 卷 第 5 期 ，73-80 页 ] 


人 查看 


中 国 近 十 鲜 年 来 的 两 大 有 运动 ; 与 国民 革命 运动 
微 喊 《前 路 ) 1931 年 [第 5 期 ，7-15 页 ] 


令吉 看 


随感 销 : (六 ) 告 


静 再 《新 妇女 》 ”1920 年 [第 1 卷 第 2 期 ，34-36 页 ] 


图 书馆 与 数字 人 文 有 着 天 然 的 联系 ,数字 人 文 的 
发 展 给 图 书馆 带 来 了 机 遇 , 更 带 来 了 挑战 。 本 文 针对 
数字 人 文平 台 的 个 性 化 服务 进行 分 析 , 提 出 了 将 高 效 
的 人 工 智能 算法 与 数字 人 文 相 结合 ,为 上 海 图 书馆 的 
数字 人 文平 台 舱 入 个 Ee 能 够 为 读者 提供 各 种 
精准 优质 的 推介 服务 。 通 过 对 平台 的 测试 与 验证 , 结 
果 基 本 满足 预期 要 求 。 下 一 步 ,笔者 将 围绕 如 何 构建 
更 为 丰富 和 智能 的 知识 图 谱 ,提高 个 性 化 服务 的 效率 
和 精确 度 ,优化 读者 阅读 体验 等 方面 继续 展开 研究 。 
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Research on Personalized Services of Digital Humanities Platforms : 
Taking Shanghai Library as an Example 
Liu Peizhong Dai Qingyi 
Shanghai Library, Shanghai Institute of Scientific & Technical Information, Shanghai 200031 


CC Abstract: | Purpose/significance | In order to optimize the functions of Chinese digital humanities platforms, 


EE ==== 
this article explores the path to realize the accurate push of digital humanities information based on users ”personal 


Codearch interests and need directions. 


| Method/ process | Taking the digital humanities platform of Shanghai Li- 


brary as an example, this article tried to use three service ways of knowledge graphs, user portraits and hotspot push 


in the field of humanities to enhance the quality of modern library services, and provide users with more efficient and 


high quality services. | Result/conclusion | The research shows that digital humanities services combined with effi- 


cient artificial intelligence recommendation algorithm can provide users with a variety of accurate and high-quality ref- 


erral services, and accurately push high-value information to users. 


Keywords: digital humanities knowledge graph 


library service 
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